PacBio HiFi 测序原理与应用¶

一句话说明¶

PacBio HiFi 是"又长又准"的测序技术——DNA 片段做成环形，聚合酶绕着圈读好多遍，把每遍的错误平均掉，最终得到 10-20kb 的高精度长读序列（准确率 >99.9%）。

核心知识点¶

要点1：HiFi 的技术原理¶

PacBio 的 SMRT 测序：单分子实时测序，聚合酶固定在零模波导孔（ZMW）底部
DNA 模板做成 SMRTbell（哑铃形环状结构）：插入片段两端加接头形成闭合环
聚合酶沿模板持续合成，每次通过（pass）就是一次亚读（subread）
HiFi 的关键：插入片段 ~15-20kb，聚合酶绕多圈（≥3 passes），取共识序列（CCS）
CCS = Circular Consensus Sequence → 准确率从单 pass 的 ~85% 提升到 >99.9%（Q30+）

要点2：HiFi vs CLR vs ONT¶

特征	HiFi (CCS)	CLR (连续长读)	ONT
读长	10-25 kb	10-100+ kb	1-100+ kb
准确率	>99.9% (Q30+)	~85-90%	~99%（R10.4+）
通量	~30 Gb/cell	~50 Gb/cell	~50-100 Gb/cell
均一性	低 GC 偏好	低 GC 偏好	极低 GC 偏好
表观修饰	可检测	可检测	可检测
成本	高	中	低-中

要点3：核心应用场景¶

从头组装：HiFi 是当前最佳基因组组装数据源（T2T 基因组使用）
结构变异检测：长读长精确识别 SV（50bp-Mb 级）
单倍型分装：直接 phase 产生单倍型组装
全长转录本：Iso-Seq 模式测全长 mRNA
表观修饰检测：聚合酶动力学信号检测 5mC、6mA 等
HLA 分型：精确解析高度多态的 MHC 区域

要点4：Revio 平台（2023+）¶

PacBio 最新平台，取代 Sequel II/IIe
4 个 SMRT Cell 同时运行，通量大幅提升
每个 SMRT Cell ~100-120 Gb HiFi 数据（SPRQ 化学，约 30-40× 人类基因组）
成本下降约 3 倍

实战代码¶

# ===== PacBio HiFi 数据处理流程 =====

# 1. 生成 HiFi reads（从原始 subreads 生成 CCS）
# 使用 PacBio 的 ccs 工具（SMRT Link 套件）
ccs input.subreads.bam output.hifi.bam \
    --min-rq 0.99 \       # 最低质量阈值 Q20（99%）
    --min-passes 3 \       # 至少 3 次完整 pass
    --num-threads 16

# 注意：Revio 平台直接输出 HiFi reads，无需此步骤

# 2. 查看 HiFi reads 统计
# 平均读长、总量、质量分布
python -c "
import pysam
bam = pysam.AlignmentFile('output.hifi.bam', 'rb', check_sq=False)
lengths = []
quals = []
for read in bam:
    lengths.append(read.query_length)
    quals.append(read.get_tag('rq'))  # 读质量
bam.close()
import numpy as np
print(f'HiFi reads 数: {len(lengths)}')
print(f'平均读长: {np.mean(lengths):.0f} bp')
print(f'中位读长: {np.median(lengths):.0f} bp')
print(f'N50 读长: {sorted(lengths, reverse=True)[len(lengths)//2]:.0f} bp')
print(f'平均质量: {np.mean(quals):.4f}')
print(f'总碱基数: {sum(lengths)/1e9:.1f} Gb')
"

# 3. 基因组比对
# 使用 minimap2（长读比对标准工具）
# -a: 输出 SAM 格式
# -x map-hifi: HiFi 专用预设参数
minimap2 -a -x map-hifi -t 16 \
    ref_genome.fa output.hifi.bam | \
    samtools sort -@ 8 -o aligned.sorted.bam
samtools index aligned.sorted.bam

# 4. 基因组从头组装（使用 hifiasm）
# hifiasm 是 HiFi 数据最佳组装工具
hifiasm -o assembly \
    -t 32 \                # 线程数
    output.hifi.fastq.gz   # HiFi reads

# 输出文件：
# assembly.bp.p_ctg.gfa → 主要 contigs（GFA 格式）
# assembly.bp.hap1.p_ctg.gfa → 单倍型1
# assembly.bp.hap2.p_ctg.gfa → 单倍型2

# GFA 转 FASTA
awk '/^S/{print ">"$2; print $3}' \
    assembly.bp.p_ctg.gfa > assembly.p_ctg.fa

# 5. 组装质量评估
# QUAST：基本统计
quast assembly.p_ctg.fa -r ref_genome.fa \
    -o quast_output/ -t 8

# BUSCO：基因完整性评估
busco -i assembly.p_ctg.fa -l mammalia_odb10 \
    -o busco_output -m genome -c 8

面试常问点¶

★ HiFi 为什么能做到又长又准？¶

参考答案：HiFi 的核心是 CCS（环形共识序列）技术。DNA 插入片段被做成环形的 SMRTbell 模板，聚合酶沿着这个环多次通过（至少 3 次），每次独立地读一遍。虽然单次通过的错误率约 10-15%，但因为错误是随机的，多次通过取共识后错误率指数下降。类比：一个人说话你可能听错，但让他重复说三遍以上，你几乎不可能每次都听错同一个字。

★ HiFi 和 ONT 怎么选？¶

参考答案：两者各有优势。HiFi 准确率更高（Q30+ vs Q20+），特别适合变异检测和从头组装，是目前 T2T 级别基因组组装的首选。ONT 读长可以更长（超长模式可达 Mb 级），成本更低，设备小巧便携，适合现场测序和需要超长读长的场景（如复杂重复区域）。很多项目两者结合使用——HiFi 做主要组装，ONT 超长 reads 辅助跨越重复区域。

速查卡片¶

问题	一句话答案
HiFi 全称	High Fidelity（CCS = Circular Consensus Sequence）
典型读长	10-25 kb
准确率	>99.9%（Q30+）
最少 pass 数	3 次
最新平台	Revio（2023+）
最佳组装工具	hifiasm
比对工具	minimap2 -x map-hifi
核心优势	长读长 + 高准确率的唯一兼得方案
每 SMRT Cell 通量	~100-120 Gb（Revio + SPRQ）

PacBio HiFi 测序原理与应用¶

一句话说明¶

核心知识点¶

要点1：HiFi 的技术原理¶

要点2：HiFi vs CLR vs ONT¶

要点3：核心应用场景¶

要点4：Revio 平台（2023+）¶

实战代码¶

面试常问点¶

★ HiFi 为什么能做到又长又准？¶

★ HiFi 和 ONT 怎么选？¶

速查卡片¶

📚 相关文章推荐